12. 练习:杆平衡
练习:杆平衡
在这个经典的强化学习任务中,在光滑的道路上有一辆购物车,购物车的顶部插着一根杆子。目标是通过使购物车向左或向右移动,防止杆子掉下来,并且购物车不会脱离轨道。
在 OpenAI Gym 实现中,智能体在每个时间步都向购物车应用 +1 或 -1 的力。它是一个阶段性任务,在以下情况下这一阶段会结束:(1) 杆子与垂直方向的夹角超过 20.9 度,(2) 购物车离道路中心的距离超过 2.4 个单位,或者 (3) 时间步超过了 200 步。对于每个时间步,购物车都获得奖励 +1,包括最终时间步。你可以在 OpenAI 的 github 中详细了解该环境。该任务还出现在了教科书的第 3.4 个示例中。
SOLUTION:
- 折扣率为 1。
- 折扣率为 0.9。
- 折扣率为 0.5。
SOLUTION:
- 折扣率是 0.9。
- 折扣率是 0.5。
SOLUTION:
- 所有这些折扣率都无法帮助智能体,因为没有奖励信号。